1
Bối cảnh khóa học và Cuộc khủng hoảng khả năng tái tạo trong học sâu
EvoClass-AI002Bài giảng 8
00:00

Bối cảnh khóa học và Cuộc khủng hoảng khả năng tái tạo trong học sâu

Khi chúng ta chuyển từ các mô hình đơn giản, độc lập sang các kiến trúc phức tạp, nhiều giai đoạn cần thiết cho Dự án Mốc 1, việc theo dõi thủ công các tham số quan trọng trong bảng tính hoặc tệp cục bộ trở nên hoàn toàn không thể duy trì được. Quy trình làm việc phức tạp này đặt ra những rủi ro nghiêm trọng đối với tính toàn vẹn của phát triển.

1. Xác định điểm nghẽn trong khả năng tái tạo

Quy trình học sâu vốn dĩ có độ biến thiên cao do sự xuất hiện của rất nhiều yếu tố (thuật toán tối ưu hóa, tập con dữ liệu, kỹ thuật giảm thiểu quá khớp, khác biệt về môi trường). Nếu không có việc theo dõi có hệ thống, việc tái tạo lại một kết quả cụ thể trong quá khứ — điều cực kỳ quan trọng để gỡ lỗi hoặc cải tiến mô hình đã triển khai — thường là điều bất khả thi.

Những gì cần được theo dõi?

Siêu tham số: All configuration settings must be recorded (e.g., Learning Rate, Batch Size, Optimizer choice, Activation function).
Trạng thái môi trường: Software dependencies, hardware used (GPU type, OS), and exact package versions must be fixed and recorded.
Sản phẩm và Kết quả: Pointers to the saved model weights, final metrics (Loss, Accuracy, F1 score), and training runtime must be stored.
The "Single Source of Truth" (SSOT)
Systematic experiment tracking establishes a central repository—a SSOT—where every choice made during model training is recorded automatically. This eliminates guesswork and ensures reliable auditability across all experimental runs.
conceptual_trace.py
THƯỜNG ĐÀNbash — tracking-env
> Đã sẵn sàng. Nhấp vào "Chạy theo dõi khái niệm" để xem quy trình làm việc.
>
THEO DÕI THÍ NGHIỆM Thời gian thực

Mô phỏng chạy để trực quan hóa dữ liệu theo dõi được thu thập.
Câu hỏi 1
Nguyên nhân gốc rễ của cuộc khủng hoảng khả năng tái tạo trong học sâu là gì?
Sự phụ thuộc của PyTorch vào driver CUDA.
Số lượng khổng lồ các biến chưa được theo dõi (mã nguồn, dữ liệu, siêu tham số và môi trường).
Việc sử dụng bộ nhớ quá mức của các mô hình lớn.
Chi phí tính toán khi tạo ra sản phẩm.
Câu hỏi 2
Trong bối cảnh MLOps, tại sao việc theo dõi thí nghiệm có hệ thống lại thiết yếu cho môi trường sản xuất?
Nó giúp giảm thiểu tổng dung lượng lưu trữ của các sản phẩm mô hình.
Nó đảm bảo rằng mô hình đạt được hiệu suất báo cáo có thể được khôi phục và triển khai một cách đáng tin cậy.
Nó làm tăng tốc độ giai đoạn huấn luyện của mô hình.
Câu hỏi 3
Yếu tố nào là cần thiết để tái tạo một kết quả nhưng thường bị quên lãng khi theo dõi thủ công?
Số lượng epoch đã chạy.
Phiên bản cụ thể của tất cả các thư viện Python và giá trị ngẫu nhiên (random seed) đã sử dụng.
Tên của tập dữ liệu đã dùng.
Thời điểm bắt đầu huấn luyện.
Thử thách: Theo dõi trong quá trình chuyển đổi
Tại sao việc chuyển đổi sang theo dõi chính thức là điều bắt buộc.
Bạn đang quản lý 5 nhà phát triển làm việc trên Dự án Mốc 1. Mỗi người báo cáo độ chính xác mô hình tốt nhất (từ 88% đến 91%) qua Slack. Không ai có thể cung cấp chính xác tổ hợp tham số hoặc mã nguồn đã dùng cho lần chạy thành công nhất.
Bước 1
Bước đi tức thì nào cần được thực hiện để ngăn chặn việc mất mát thông tin quan trọng?
Lời giải:
Thực hiện yêu cầu bắt buộc mọi lần chạy phải được đăng ký vào hệ thống theo dõi tự động trước khi chia sẻ kết quả, nhằm ghi lại đầy đủ từ điển siêu tham số và mã Git.
Bước 2
Các lợi ích mà theo dõi có cấu trúc mang lại cho nhóm so với bảng tính chia sẻ là gì?
Lời giải:
Theo dõi có cấu trúc cho phép các bảng điều khiển so sánh tự động, trực quan hóa mức độ quan trọng của tham số, và lưu trữ sản phẩm tập trung, điều mà bảng tính tĩnh không thể làm được.